Identifying Instrumental Variables for Social Movements

Detecting Protest Events Using Pre-trained Language Model

Kazuhiro Terashita

Full-time Lecturer
Graduate School of Arts and Sciences, The University of Tokyo

2025-06-29

Introduction

はじめに

  • RQ
    • 抗議行動のアウトカムを効果的に説明できる操作変数は何か?
  • Motivation
    • 社会運動のアウトカムを説明する
      • 交絡要因が多い
    • 操作変数を用いた研究
      • 降水量を用いて動員の効果を測る
      • Mellon(2024)による問題提起
      • 降水量以外の可能性?動員以外の効果?

Predict Instrumental Variables

社会運動のアウトカム研究

  • 社会運動の規模や暴力性、採用する戦術

  • メディアの注目度

    • 政策決定者や有権者は、通常、テレビ、新聞、ソーシャルネットワーキングサイト、その他のメディアを通じて運動の存在を知る
  • 政治的機会構造

    • 出力構造・入力構造
    • 政治的仲介者の存在
  • 動員に比べると研究が進んでいない

操作変数を用いた研究とその課題

  • 操作変数法による推定
    • 社会運動の内生的な性質
      • 政治的機会構造によって動員されて、アウトカムも生じる?
  • 降水量を用いた推定
    • 古典的な政治参加モデルを参考に、雨が社会運動への参加を妨げるという仮定
    • 共和党候補の得票率、投票率などに影響を与える
  • 課題
    • 動員以外の変数も大事
    • 降水量は他の変数を媒介して結果に影響を与える可能性がある
    • 降雨が稀または特に頻繁な地域では、雨は相対的なコストを意味しない
    • 天候に関する他の変数:気温

Methods

抗議行動の特定:先行事例

抗議行動の特定:本研究で用いる手法

抗議行動の特定:例

抗議行動の特定:精度

Model Accuracy Recall F1 Score
Naive Bayes 0.72 0.69 0.65
Random Forest 0.70 0.71 0.76
XLM-RoBERTa 0.72 0.70 0.70

操作変数を探す:「説明変数」と操作変数の候補

  • 「説明変数」
    • 抗議の発生
    • 報道量
    • 衝突を伴うデモの発生
  • 天候
    • 降水量
    • 気温

操作変数を探す:データと処理

  • 分析手法:「説明変数」を結果変数、操作変数候補を説明変数にした回帰分析

  • 分析単位:日×基礎自治体および2018年地方選挙 *ソウルなど都市は広域

  • 結果変数:先述の手法で特定した抗議行動

    • 抗議の発生、衝突を伴うデモ:件数
    • 報道量:場所、日時、テーマ、レパートリーが同じ報道の数
  • 説明変数:降水量と気温

    • 韓国気象庁のAPIによって取得
    • 観測地点が自治体ごとではないため、IDW法によって、自治体の支庁所在地の天候を推定した値を使用
    • 気温は暑くても寒くても影響する可能性があるため、20度からどれくらい離れているかの変数(絶対偏差)と気温の二乗項を入れたモデル(逆U字型)

Results

概要

  • 全面的にnull
  • 降水量・気温ともに各変数に影響を与えるとはいえない
  • 本当にnullかどうかを検証するために曜日固定効果を入れたり、変数を変えてみたりしたが、結果は同じくnull

抗議行動の発生:地理的分布

抗議行動の発生:時系列・警察データとの比較

全国

ソウル

抗議行動の発生:月別の集計

イベント数

報道量

回帰分析の結果:日×自治体

RF-Protest RF-Report RF-Clash
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001.
都市圏(都道府県)レベルでクラスタリングされたロバスト標準誤差。
RF = Random Forest
Rainfall -0.000 -0.000 -0.000
(0.000) (0.000) (0.000)
Temp_dev 0.000 0.000 0.000
(0.000) (0.000) (0.000)
Num.Obs. 294417 294417 294417
R2 0.270 0.226 0.031

回帰分析の結果:2018年選挙/7日間の平均

RF-Protest RF-Report RF-Clash
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001. RF = Random Forest
都市圏(都道府県)レベルでクラスタリングされたロバスト標準誤差。
(Intercept) -0.672 0.834 0.100
(1.653) (1.285) (0.102)
Rainfall 0.029 0.055 0.007
(0.054) (0.065) (0.007)
Temp_dev 0.032 -0.042 -0.005
(0.080) (0.062) (0.005)
Num.Obs. 160 160 160
R2 0.007 0.006 0.016

本当にnullなのか?

RF-Protest RF-Report RF-Clash
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001. 曜日ダミーを投入
Rainfall -0.000 -0.000 -0.000*
(0.000) (0.000) (0.000)
Temp_dev 0.000 0.000 0.000+
(0.000) (0.000) (0.000)
I(Temp^2) -0.000 -0.000 0.000
(0.000) (0.000) (0.000)
Num.Obs. 294417 294417 294417
R2 0.262 0.218 0.024

Conclusion

結論

  • 抗議行動の発生や報道量、衝突の有無と気候は関係があるとは言えない
    • 雨が降ろうが、どんなに寒い/暑いだろうが、デモはする
    • (フィールドワーカーとしては)直感的な結果ではある
    • そもそも面積が小さい国という特有の事情もある
  • 韓国の市民社会の特徴を考慮する
    • 組織的な動員が中心:市民の参加は実は小さいレベル
    • 一般の参加と動員は分けて考えるべき
    • アメリカ・西欧的な抗議行動は他の国でも当てはまる?
      • 国によって用いることのできる操作変数は違うのかもしれない

含意と課題

  • 動員以外の変数を検証するためには天候以外の操作変数や別の手法を検討する必要がありそう
    • スキャンダル・事件の発生
    • テーマや地域によって異なる可能性
      • 環境問題なら気温・異常気象。反米軍基地デモなら米軍による事件の発生など
    • 時系列データを用いた分析:DiD、パネルマッチなど
  • 課題
    • 抗議イベント分析の正確性
    • 動員数など他の変数:携帯電話の位置情報の活用
    • 規模を限って再分析